半年後にAIはいったいどうなっているのか 2023年下半期
7月が終わってしまう前になにか書こうnomadoor.icon
ワークフローの複雑化
今の画像生成AI、全然"text2image"じゃなくね?と誰かがredditで言っていた気がする
LoRA然り、ControlNet然り
音楽、動画、LLMも結局なにか新しいUIが開発されて専門的なものになるんジャマイカ
動画生成AI
AnimateDiffではそこまで感動しなかったけれど、Midjourney ✕ Gen-2の動画を見ると案外近づいてる予感もする 日本語LLMは多分勝手に誰かが作る(オープンソースにしてくれるかはわからないけど…)
会話特化のPiの体験が良さそうなのを見ると、言葉を理解した先の、相対していて気持ちの良いAIとはなにかというのを考えていくフェーズになるかもしれない コアに生成AIを取り込んだゲーム
生成AIで時短したとかではなく、生成AIが無ければ作れないゲーム
なおリリースは2024年9月25日
何を知ればより効果的な出力ができるのか(無知の知的な?)をサポートしてくれる
半年位以内は無理かもしれないけれども所謂AIコスプレとmov2mov(ロトスコープ)を利用した商業レベルの映像ワークフロー 総評 @ 2024/1/6
画像生成
高速化
いまだにまともに使えるControlNetが無いnomadoor.icon
ワークフローの複雑化は割と深刻nomadoor.icon
今からだったら絶対AI触らない
まあblenderとか意味わかんないからそんなもんかも知れない
映像生成
Gen-2は知らないですnomadoor.icon
ここ詳しくないので頼んだwogikaze.icon
Animate Anyoneから突然talking headの全身版のようななにかが流行りだす
日本の広告でも使われ始めた
3D生成
ぼちぼち
中国勢の台頭
Bytedanceやalibaba発の技術の公開
Animate Anyoneがまさにだけれど、TikTokなど自分のサービスで学習素材を集めて、作った技術を自分のサービスに組み込んで収益化できるのが強いnomadoor.icon
そして何故か技術をオープンにすることに積極的
ComfyUIやLoRAに関する情報が中国のコミュニティでかなり広がっている
実際アニメ系のモデルはほぼ中国から
HeyGenはじめ、ディープフェイク動画の作成が簡単になりつつある LLM
GPTsが作れるようになったぐらい?
ドキュメントを投げられるようになった
コンテキスト長の長いものが増えてきた
日本語LLM
定量評価が難しすぎていい方向に調整できてるのかわからない
ヘンなプロンプトは流行ってる?
OpenAIのお家騒動?で脱クラウド&ローカルLLMへの注目度が少しずつ上ってきた VLM/マルチモーダル
わからないwogikaze.icon
画像入力がChatGPTとGeminiは対応している